CrossFormer (3D 인간 포즈 추정, Cross-Spatio-Temporal Transformer, 2022-03-24)
2025-12-13, G30DR
1. 서론 (Introduction)
컴퓨터 비전(Computer Vision) 분야에서 인간의 행동과 의도를 이해하는 것은 기계가 인간과 자연스럽게 상호작용하기 위한 가장 본질적인 과제 중 하나다. 이러한 이해의 중심에는 2D 이미지나 비디오로부터 인간 신체의 관절(joint) 위치를 3차원 공간상에 복원하는 3D 인간 포즈 추정(3D Human Pose Estimation, HPE) 기술이 자리 잡고 있다. 3D HPE는 인간-컴퓨터 상호작용(HCI), 가상현실(VR) 및 증강현실(AR), 헬스케어, 자율주행, 그리고 스포츠 모션 분석 등 다양한 산업 분야에서 핵심적인 역할을 수행한다.1
최근 딥러닝(Deep Learning) 기술의 비약적인 발전, 특히 자연어 처리(NLP) 분야에서 시작되어 비전 분야로 확장된 트랜스포머(Transformer) 아키텍처의 도입은 3D HPE 연구의 패러다임을 근본적으로 변화시켰다. 기존의 합성곱 신경망(Convolutional Neural Network, CNN)이나 순환 신경망(Recurrent Neural Network, RNN) 기반의 접근 방식들은 제한된 수용 영역(Receptive Field)이나 장기 의존성(Long-range Dependency) 모델링의 한계로 인해 복잡한 인간의 움직임을 완벽하게 포착하는 데 어려움을 겪었다.1 반면, 트랜스포머 기반의 접근 방식은 시퀀스 전체의 전역적 문맥(Global Context)을 파악하는 데 탁월한 성능을 보이며 3D 포즈 추정의 정확도를 획기적으로 향상시켰다.
그러나 초기 트랜스포머 기반 모델인 PoseFormer 등이 보여준 성과에도 불구하고, 이들은 여전히 몇 가지 결정적인 한계점을 내포하고 있었다. 가장 대표적인 문제는 표준 셀프 어텐션(Self-Attention) 메커니즘이 모든 토큰(관절) 간의 관계를 동등하게 취급함에 따라, 인접한 관절 간의 강력한 **지역적 상호작용(Local Interaction)**이나 프레임 간의 미세한 **채널 간 상관관계(Inter-feature Correlation)**를 충분히 반영하지 못한다는 점이었다.1 인간의 신체는 생체역학적으로(biomechanically) 연결된 구조체이기에, 손목은 팔꿈치와, 무릎은 발목과 밀접한 연관성을 가지며 움직인다. 이러한 구조적 특성을 무시한 채 전역적 관계만을 학습하는 것은 최적의 성능을 달성하는 데 걸림돌이 되었다.
이러한 배경에서 등장한 **CrossFormer (Cross Spatio-Temporal Transformer)**는 기존 트랜스포머 아키텍처의 장점을 계승하면서도, 공간적(Spatial) 및 시간적(Temporal) 도메인에서의 상호작용을 명시적으로 강화한 모델이다. 본 보고서는 Hassanin et al.이 제안한 CrossFormer 모델을 중심으로, 3D 인간 포즈 추정 기술의 현황과 CrossFormer의 핵심 기술인 Cross-Joint Interaction (CJI) 및 Cross-Frame Interaction (CFI) 모듈의 작동 원리, 그리고 다양한 벤치마크 데이터셋에서의 실험 결과를 통한 성능 분석을 총망라하여 다룬다. 이를 통해 단순히 모델의 구조를 설명하는 것을 넘어, 왜 이러한 설계가 필요했는지에 대한 근본적인 통찰과 향후 연구 방향성을 제시하고자 한다.
2. 3D 인간 포즈 추정의 기술적 배경 및 진화 (Technical Background & Evolution)
2.1 단안 3D 포즈 추정의 난제: 깊이 모호성 (Depth Ambiguity)
단일 RGB 이미지 또는 비디오(Monocular Video)로부터 3D 포즈를 추정하는 것은 본질적으로 ’불량 조건 문제(Ill-posed Problem)’에 해당한다. 3차원 공간의 객체가 2차원 평면으로 투영(Projection)될 때 깊이(Depth) 정보가 손실되기 때문이다. 동일한 2D 투영이라 하더라도 무수히 많은 3D 포즈가 정답이 될 수 있는 기하학적 모호성이 존재한다.1
이러한 모호성을 해결하기 위해 연구자들은 시간적 정보(Temporal Information)를 활용하는 방법에 주목해왔다. 단일 프레임에서는 알 수 없는 깊이 정보를, 연속된 프레임 간의 움직임 변화와 신체 구조의 일관성(Consistency)을 통해 추론해 내는 것이다.
2.2 2D-to-3D 리프팅 (Lifting) 패러다임의 지배
현재 3D HPE 분야의 주류를 이루는 방법론은 2단계(Two-stage) 접근 방식, 즉 ’2D-to-3D 리프팅’이다.
- 2D 포즈 검출 (2D Pose Detection): 입력 이미지나 비디오에서 기성(Off-the-shelf) 2D 포즈 추정기(예: CPN, HRNet, OpenPose 등)를 사용하여 2D 관절 좌표 (x, y)를 먼저 추출한다.
- 3D 포즈 리프팅 (3D Pose Lifting): 추출된 2D 좌표 시퀀스만을 입력으로 받아 딥러닝 모델을 통해 3D 좌표 (x, y, z)로 변환(매핑)한다.1
이 방식이 선호되는 이유는 이미지 전체를 처리하는 엔드-투-엔드(End-to-End) 방식에 비해 연산량이 현저히 적고, 대규모 2D 포즈 데이터셋(COCO 등)으로 사전 학습된 강력한 2D 검출기의 성능을 그대로 활용할 수 있기 때문이다. CrossFormer 역시 이 리프팅 패러다임을 따른다. 즉, CrossFormer의 입력은 이미지가 아닌, 이미지에서 추출된 2D 좌표들의 시퀀스이다.4
2.3 딥러닝 아키텍처의 진화: CNN에서 Transformer로
초기 2D-to-3D 리프팅 모델들은 주로 완전 연결 계층(Fully Connected Network, FCN)이나 시간적 합성곱 네트워크(Temporal Convolutional Network, TCN)를 사용했다. Martinez et al.은 간단한 잔차 연결(Residual Connection)을 가진 FCN만으로도 효과적인 리프팅이 가능함을 보였으며, Pavllo et al.은 확장된 합성곱(Dilated Convolution)을 사용한 VideoPose3D를 제안하여 긴 시퀀스에서의 시간적 정보를 활용했다.1
그러나 CNN 기반 모델(TCN 등)은 고정된 수용 영역(Receptive Field)으로 인해 비디오 시퀀스 내의 장거리 의존성(Long-range Dependencies)을 모델링하는 데 한계가 있었다. 예를 들어, 걷기 동작의 주기성을 파악하거나, 가려짐(Occlusion)이 발생했을 때 멀리 떨어진 프레임의 정보를 참조하여 복원하는 능력이 부족했다.
이러한 한계를 극복하기 위해 등장한 것이 **트랜스포머(Transformer)**이다. NLP 분야의 BERT나 GPT, 비전 분야의 ViT(Vision Transformer)에서 입증된 셀프 어텐션(Self-Attention) 메커니즘은 입력 시퀀스의 길이에 상관없이 모든 토큰 간의 상관관계를 한 번에 계산할 수 있어 전역적 문맥 파악에 최적화되어 있다. 3D HPE 분야에서는 PoseFormer가 최초로 순수 트랜스포머 기반의 아키텍처를 제안하며 새로운 표준(SOTA)을 수립했다.2
2.4 기존 Transformer 모델(PoseFormer)의 한계와 CrossFormer의 등장
PoseFormer는 공간적 트랜스포머(Spatial Transformer)와 시간적 트랜스포머(Temporal Transformer)를 직렬로 연결하여 프레임 내 관절 관계와 프레임 간 시간적 흐름을 모델링했다. 하지만 PoseFormer는 다음과 같은 구조적 약점을 가지고 있었다:
- 지역성(Locality)의 부재: 표준 어텐션 메커니즘은 모든 관절을 동일한 가중치로 탐색한다. 그러나 인체 구조상 손목은 발목보다 팔꿈치와 훨씬 강한 상관관계를 가진다. 이러한 ’인접성’이나 ’지역적 연결성’을 무시하고 전역적 관계만 학습하는 것은 비효율적이며, 때로는 구조적으로 불가능한 포즈를 예측하는 원인이 된다.1
- 단순한 내적 기반 상호작용: 기존 어텐션은 Query와 Key의 내적(Dot Product)을 통해 스칼라 값인 어텐션 맵을 생성한다. 이 과정에서 채널(Feature Channel) 간의 풍부한 상관관계 정보가 손실될 수 있다. 특히 미세한 움직임이나 관절 간의 복잡한 상호작용을 포착하기 위해서는 단순 내적보다 더 정교한 상호작용 모델링이 필요하다.1
CrossFormer는 바로 이 두 가지 문제, 즉 ’지역성의 통합’과 ’상호 특징 표현(Inter-feature Representation)의 강화’를 해결하기 위해 설계되었다.
3. CrossFormer의 핵심 방법론 및 아키텍처 (Methodology & Architecture)
CrossFormer의 아키텍처는 PoseFormer의 공간-시간(Spatial-Temporal) 분리 설계를 계승하되, 각 단계에 혁신적인 상호작용 모듈을 주입하여 성능을 극대화했다. 전체 파이프라인은 크게 1) 입력 임베딩, 2) 공간적 트랜스포머와 CJI 모듈, 3) 시간적 트랜스포머와 CFI 모듈, **4) 회귀 헤드(Regression Head)**로 구성된다.1
3.1 입력 데이터 처리 및 임베딩 (Input Embedding)
CrossFormer의 입력은 N개의 프레임으로 구성된 비디오 시퀀스에서 추출된 2D 관절 좌표 집합이다.
- 입력 텐서: X \in \mathbb{R}^{F \times J \times 2}
- F: 프레임 수 (Number of Frames)
- J: 관절 수 (Number of Joints, 보통 Human3.6M 기준 17개)
- 2: (x, y) 좌표
각 관절의 2D 좌표는 먼저 선형 투영(Linear Projection)을 통해 D 차원의 특징 벡터로 변환된다. 이때, 공간적 위치 정보(Spatial Positional Embedding)와 시간적 위치 정보(Temporal Positional Embedding)가 더해져 트랜스포머가 각 관절의 신체적 위치와 프레임 순서를 인지할 수 있도록 한다.1
3.2 공간적 트랜스포머와 Cross-Joint Interaction (CJI)
공간적 트랜스포머는 개별 프레임 내에서 관절들 사이의 관계를 학습한다. 기존의 Multi-Head Self-Attention (MHSA)이 전역적인 의존성을 학습한다면, CrossFormer는 여기에 CJI (Cross-Joint Interaction) 모듈을 추가하여 지역적 의존성을 보완한다.
3.2.1 CJI 모듈의 설계 원리
CJI 모듈은 MHSA 레이어와 피드포워드 네트워크(MLP) 사이에 삽입된다. 이 모듈의 핵심 목표는 **인접한 신체 부위 간의 운동학적 제약(Kinematic Constraints)**을 인코딩하는 것이다. 이를 위해 CJI는 1D 합성곱(Convolution) 연산을 활용한다. 트랜스포머가 ’전역적’이라면 합성곱은 ’지역적’인 특성을 가지므로, 이 둘의 결합은 상호보완적이다.1
3.2.2 CJI의 수학적 메커니즘
CJI 모듈의 연산 과정은 다음과 같다:
Z_{out} = \text{CONV}_{1 \times 1}(\text{GN}(\text{GELU}(\text{CONV}_{k \times k}(Z_{in})))) + Z_{in}
- 입력 변환: MHSA의 출력 Z_{in}을 입력받는다.
- Depth-wise Convolution: 커널 크기(kernel size)가 5인 깊이별 합성곱(Depth-wise Convolution)을 수행한다. 여기서 커널 크기 5는 중심 관절과 그 주변에 인접한 관절들의 정보를 함께 집계(Aggregate)하기 위해 설정되었다. 이는 그래프 구조인 인체 골격에서 이웃 노드(관절)의 정보를 반영하는 것과 유사한 효과를 낸다.1
- 비선형성 및 정규화: GELU 활성화 함수와 그룹 정규화(Group Normalization, GN)를 통해 학습의 안정성을 높인다.
- 잔차 연결 (Residual Connection): 입력 Z_{in}을 다시 더해주어 정보의 손실을 막고 그래디언트 흐름을 원활하게 한다.
이 과정을 통해 공간적 인코더는 멀리 떨어진 관절 간의 관계뿐만 아니라, 어깨-팔꿈치-손목과 같은 국소적인 연결 구조를 강력하게 학습하게 된다. 이는 3D 포즈 추정 시 자주 발생하는 ’관절 길이 오류’나 ‘비정상적인 꺾임’ 현상을 완화하는 데 결정적인 역할을 한다.
3.3 시간적 트랜스포머와 Cross-Frame Interaction (CFI)
시간적 트랜스포머는 프레임 시퀀스를 따라 각 관절의 움직임 궤적을 학습한다. 여기서 CrossFormer는 기존의 내적 기반 어텐션을 대체하거나 보완하는 CFI (Cross-Frame Interaction) 모듈을 도입한다.
3.3.1 CFI 모듈의 핵심: 이중 선형 풀링 (Bilinear Pooling)
기존의 Scaled Dot-Product Attention은 Attention(Q, K, V) = Softmax(\frac{QK^T}{\sqrt{d_k}})V 공식을 따른다. 여기서 QK^T 연산은 두 벡터의 유사도를 하나의 스칼라 값으로 압축해버리기 때문에, 채널(특징) 간의 세밀한 상관관계 정보가 손실될 수 있다.
CFI 모듈은 이를 극복하기 위해 이중 선형 풀링(Bilinear Pooling), 구체적으로는 **외적(Outer Product)**을 활용한다. 이는 두 특징 벡터 간의 모든 요소 쌍(Pairwise)의 상호작용을 명시적으로 모델링하는 방식이다.1
3.3.2 CFI의 수학적 메커니즘
CFI 모듈에서의 연산은 다음과 같이 정의된다:
- Query, Key, Value 생성: 입력 특징 Z로부터 선형 변환을 통해 Q, K, V를 생성한다.
K = ZW_k, \quad Q = ZW_q, \quad V = ZW_v
- Bilinear Interaction (Outer Product): K와 Q 사이의 외적 연산을 수행하여 상관 행렬 C를 생성한다.
C = K \otimes Q \in \mathbb{R}^{F \times F}
여기서 \otimes는 이중 선형 풀링 연산을 의미한다. 이 행렬 C는 단순한 유사도 맵이 아니라, 프레임 i와 프레임 j 사이의 고차원적인 특징 상호작용 정보를 담고 있다.
- 특징 통합: 생성된 상관 행렬 C를 다시 V와 결합한다.
Z_{inter} = C \otimes V
- 후처리: 합성곱과 정규화를 거쳐 최종 출력을 생성한다.
Z_{out} = \text{GN}(\text{CONV}(Z_{inter})) + Z_{in}
이러한 CFI 메커니즘은 시간적 도메인에서 프레임 간의 미세한 변화를 감지하는 데 탁월하다. 예를 들어, 빠른 동작이나 프레임 간의 급격한 변화가 있을 때, 단순한 가중 평균(Attention)보다 훨씬 풍부한 문맥 정보를 전달하여 포즈 추정의 시간적 일관성(Temporal Consistency)을 높여준다.1
3.4 회귀 헤드 (Regression Head)
공간 및 시간 트랜스포머를 거친 최종 특징 맵은 \mathbb{R}^{F \times J \times D}의 차원을 가진다. 3D 포즈 추정의 목표는 주로 중앙 프레임(Center Frame)의 3D 좌표를 예측하는 것이다.
- Weighted Average: 1D 합성곱을 사용하여 시간 축(Frame dimension)에 대한 가중 평균을 구하여 시퀀스 정보를 하나의 프레임 정보로 압축한다. (\mathbb{R}^{1 \times J \times D})
- Linear Projection: 최종적으로 D 차원의 특징을 3차원 좌표 (x, y, z)로 변환한다. (\mathbb{R}^{1 \times J \times 3})
3.5 손실 함수 (Loss Function)
모델의 학습은 예측된 3D 좌표와 실제 정답(Ground Truth) 3D 좌표 간의 **MPJPE (Mean Per Joint Position Error)**를 최소화하는 방향으로 진행된다.
L = \frac{1}{N \times J} \sum_{n=1}^{N} \sum_{j=1}^{J} \| P_{n,j}^{GT} - P_{n,j}^{Pred} \|_2
일부 연구에서는 시간적 부드러움을 강제하기 위해 속도(Velocity)에 대한 손실 함수 등을 추가하기도 하지만, 기본적으로는 MPJPE가 핵심 목적 함수이다.1
4. 실험 환경 및 벤치마크 (Experimental Framework)
CrossFormer의 성능은 3D HPE 분야에서 가장 권위 있는 두 개의 대규모 데이터셋, Human3.6M과 MPI-INF-3DHP를 통해 검증되었다.
4.1 데이터셋 상세 분석
- Human3.6M 7:
- 규모: 360만 개의 비디오 프레임과 대응되는 3D 포즈 주석(Annotation)을 포함하는 가장 큰 실내 데이터셋이다.
- 구성: 11명의 전문 배우가 15가지의 다양한 일상 행동(식사, 걷기, 인사하기, 흡연, 사진 찍기 등)을 수행한다.
- 환경: 4대의 동기화된 고해상도(50Hz) 카메라로 촬영되었으며, 마커 기반 모션 캡처 시스템(Vicon)을 통해 정밀한 3D 정답을 획득했다.
- 프로토콜: 일반적으로 5명의 피험자(S1, S5, S6, S7, S8)를 학습에 사용하고, 2명(S9, S11)을 테스트에 사용한다.
- MPI-INF-3DHP 8:
- 특징: 실내 스튜디오(Green Screen)뿐만 아니라 복잡한 야외 환경 데이터를 포함하여 모델의 일반화 성능(Generalization)을 평가하는 데 적합하다.
- 난이도: Human3.6M보다 배경이 복잡하고 다양한 조명 조건을 포함하므로, 모델의 강건성(Robustness)을 테스트하는 데 중요한 지표가 된다.
4.2 평가 지표 (Evaluation Metrics)
- Protocol 1 (MPJPE): Mean Per Joint Position Error. 예측된 관절 위치와 정답 위치 사이의 유클리드 거리 평균(mm)이다. 가장 기본적이고 엄격한 지표이다.
- Protocol 2 (P-MPJPE): Procrustes-aligned MPJPE. 예측된 포즈를 정답 포즈에 대해 평행 이동, 회전, 스케일링을 통해 최적으로 정렬(Rigid Alignment)한 후 계산한 에러이다. 포즈의 절대적 위치보다는 ’구조적 형상’이 얼마나 정확한지를 평가한다.9
- PCK (Percentage of Correct Keypoints): 특정 임계값(예: 150mm) 이내로 예측된 관절의 비율.
- AUC (Area Under the Curve): PCK 곡선 아래의 면적.
5. 성능 평가 결과 및 비교 분석 (Results & Analysis)
5.1 Human3.6M에서의 정량적 성능 비교
CrossFormer는 출시 당시(2022년) 기존의 SOTA 모델이었던 PoseFormer를 능가하는 성능을 보였으며, 이후 등장한 모델들과 비교해서도 여전히 경쟁력 있는 성능을 보여준다. 다음은 Human3.6M 데이터셋에서의 MPJPE 비교 결과이다.
[표 1] Human3.6M 데이터셋에서의 MPJPE 비교 (CPN 검출 2D 포즈 입력 기준)
| 모델 (Method) | 입력 프레임 (Frames) | MPJPE (mm, P1) | P-MPJPE (mm, P2) | 비고 |
|---|---|---|---|---|
| VideoPose3D 1 | 243 | 46.8 | 36.5 | TCN 기반 |
| PoseFormer 2 | 81 | 44.3 | 34.6 | Pure Transformer |
| CrossFormer 10 | 81 | 42.8 | 32.8 | CJI/CFI 적용 |
| MixSTE 12 | 243 | 40.9 | 32.6 | Seq2Seq Mixed |
| MotionBERT 3 | 243 | 38.4 | 29.8 | SOTA (2024) |
| STCFormer 6 | 243 | 40.5 | 31.8 | Spatio-Temporal Criss-Cross |
분석 및 통찰:
- PoseFormer 대비 우위: CrossFormer는 동일하거나 더 적은 프레임 수(81 프레임) 조건에서 PoseFormer 대비 약 1.5mm ~ 2.1mm의 MPJPE 감소를 달성했다.1 이는 백분율로 환산하면 약 **3~5%**의 성능 향상에 해당한다. 수치상으로는 작아 보일 수 있으나, 이미 성능이 포화 상태에 이른 Human3.6M 벤치마크에서는 유의미한 진전이다.
- 구조적 정확성: P-MPJPE(Protocol 2)에서도 약 1.8mm의 성능 향상을 보였다. 이는 CJI 모듈이 신체의 구조적 비율(예: 팔다리 길이 등)을 더 정확하게 보존하고 있음을 시사한다.
- 동작별 성능: 특히 ‘SittingDown’(앉기), ‘WalkDog’(개 산책시키기), ‘Photo’(사진 찍기)와 같이 신체의 겹침(Self-occlusion)이 심하거나 깊이 정보 추론이 어려운 동작에서 CrossFormer의 성능 향상 폭이 컸다. 이는 CFI 모듈이 복잡한 움직임 속에서도 시간적 일관성을 유지하는 데 기여했음을 보여준다.1
5.2 MPI-INF-3DHP에서의 성능 및 일반화 능력
MPI-INF-3DHP 데이터셋에서의 결과는 CrossFormer의 야외 환경 일반화 능력을 입증한다.
[표 2] MPI-INF-3DHP 데이터셋 성능 비교
| 모델 (Method) | PCK (%) | AUC | MPJPE (mm) |
|---|---|---|---|
| PoseFormer 2 | 88.6 | 56.4 | 77.1 |
| CrossFormer 13 | 89.1 | 57.5 | 75.2 |
CrossFormer는 PCK와 AUC 모든 지표에서 PoseFormer를 상회했다. 이는 스튜디오 환경뿐만 아니라 예측 불가능한 야외 환경에서도 CrossFormer의 상호작용 모듈이 강건한 특징(Feature)을 추출함을 의미한다.
5.3 절제 연구 (Ablation Study): 모듈의 효용성 검증
Hassanin et al.은 CJI와 CFI 모듈의 개별적인 기여도를 확인하기 위해 절제 연구를 수행했다.10
- Base Model (Pure Transformer): MPJPE가 가장 높음.
- Base + CJI: MPJPE가 유의미하게 감소함. 공간적 지역성 정보가 포즈의 구조적 오류를 줄여줌을 확인.
- Base + CFI: 빠른 동작에서의 성능이 개선됨.
- Base + CJI + CFI (Full Model): 가장 낮은 에러율을 기록. 두 모듈이 상호 배타적인 것이 아니라 시너지 효과를 냄을 증명.
6. 심층 고찰: 왜 CrossFormer인가? (Discussion)
6.1 지역성(Locality)의 재발견
딥러닝, 특히 비전 트랜스포머의 발전사에서 ’지역성(Locality)’과 ’전역성(Global Context)’의 균형은 항상 중요한 화두였다. 초기 ViT는 CNN의 귀납적 편향(Inductive Bias)인 지역성을 배제하고 대규모 데이터로 이를 학습하려 했으나, 3D 포즈 추정과 같이 데이터가 제한적이고 구조적인 제약이 강한 태스크에서는 지역성의 명시적 주입이 필수적임이 CrossFormer를 통해 증명되었다. CJI 모듈의 성공은 **“인체는 그래프(Graph) 구조”**라는 기본 가정을 트랜스포머 아키텍처에 효과적으로 융합한 사례로 평가받는다.
6.2 상호작용(Interaction)의 고도화
PoseFormer가 관절과 시간의 관계를 ’존재(Existence)’의 관점에서 다뤘다면, CrossFormer는 이를 ’상호작용(Interaction)’의 관점에서 다뤘다. CFI 모듈의 이중 선형 풀링은 단순한 attention score를 넘어, 프레임 A의 특정 특징이 프레임 B의 특징과 어떻게 결합하여 새로운 문맥을 만들어내는지를 모델링했다. 이는 복잡한 비선형적 움직임을 해석하는 데 있어 내적(Dot Product)보다 외적(Outer Product) 기반의 접근이 더 풍부한 표현력을 가짐을 시사한다.
6.3 한계점 및 후속 연구의 흐름
CrossFormer는 우수한 성능에도 불구하고 몇 가지 한계를 가진다.
- 연산 비용: 이중 선형 풀링과 추가적인 합성곱 레이어는 필연적으로 연산량(FLOPs)과 파라미터 수의 증가를 가져온다. 이는 실시간 모바일 애플리케이션 적용에 제약이 될 수 있다.10
- SOTA 경쟁의 심화: 2024년 현재, MixSTE, MotionBERT, HoT (Hourglass Tokenizer) 등 더 강력한 모델들이 등장하여 Human3.6M 기준 38mm 대의 MPJPE를 기록하고 있다.16 이들 후속 모델은 CrossFormer가 제시한 ‘상호작용’ 개념을 더욱 발전시켜, 관절별 토큰 분리나 주파수 도메인 활용 등 새로운 차원의 접근을 시도하고 있다.
하지만 CrossFormer는 트랜스포머 기반 3D HPE의 발전 과정에서 ’순수 어텐션의 한계’를 지적하고 ’하이브리드(Attention + Convolution + Bilinear Pooling) 아키텍처’의 가능성을 연 선구적인 모델로서 그 학술적 가치가 매우 높다.
7. 결론 (Conclusion)
본 보고서는 3D 인간 포즈 추정을 위한 CrossFormer 아키텍처를 포괄적이고 심층적으로 분석하였다. CrossFormer는 기존 트랜스포머 모델들이 간과했던 신체 구조의 지역적 연관성과 프레임 간의 고차원적 상호작용을 모델링하기 위해 **CJI (Cross-Joint Interaction)**와 CFI (Cross-Frame Interaction) 모듈을 도입하였다.
실험 결과, CrossFormer는 Human3.6M 및 MPI-INF-3DHP 데이터셋에서 베이스라인인 PoseFormer를 능가하는 성능을 달성하며, 깊이 모호성과 폐색 문제가 심각한 상황에서도 강건한 추정 능력을 보여주었다. 특히 CJI 모듈을 통한 운동학적 제약의 강화와 CFI 모듈을 통한 시간적 역동성의 포착은 3D HPE 모델 설계에 있어 중요한 설계 지침을 제공한다.
비록 현재 시점에서는 더 높은 성능을 보이는 후속 모델들이 존재하지만, CrossFormer가 제시한 **“공간적 지역성과 시간적 상호작용의 결합”**이라는 핵심 철학은 여전히 유효하며, 향후 더 가볍고 정확한 3D 포즈 추정 모델을 개발하는 데 있어 중요한 기반 지식이 될 것이다. CrossFormer는 단순한 성능 개선을 넘어, 인공지능이 인간의 움직임을 어떻게 더 ‘인간답게’ 이해할 수 있는지에 대한 통찰을 제공한 중요한 연구라 할 수 있다.
8. 참고 자료
- Cross Spatio-Temporal Transformer for 3D Human Pose Estimation, https://www.researchgate.net/publication/359506315_CrossFormer_Cross_Spatio-Temporal_Transformer_for_3D_Human_Pose_Estimation
- 3D Human Pose Estimation with Spatial and Temporal Transformers, https://liner.com/review/3d-human-pose-estimation-with-spatial-and-temporal-transformers
- Crossformer3D: cross spatio-temporal transformer for 3D human …, https://www.researchgate.net/publication/392132528_Crossformer3D_cross_spatio-temporal_transformer_for_3D_human_pose_estimation
- Cross Spatio-Temporal Transformer for 3D Human Pose Estimation, https://www.researchgate.net/publication/367591837_Crossformer_Cross_Spatio-Temporal_Transformer_for_3D_Human_Pose_Estimation
- Cross Spatio-Temporal Transformer for 3D Human Pose Estimation, https://www.semanticscholar.org/paper/CrossFormer%3A-Cross-Spatio-Temporal-Transformer-for-Hassanin-Khamiss/271f4348307da60d4ff5fa1f7a6f2d3a56398726
- 3D Human Pose Estimation With Spatio-Temporal Criss-Cross …, https://openaccess.thecvf.com/content/CVPR2023/papers/Tang_3D_Human_Pose_Estimation_With_Spatio-Temporal_Criss-Cross_Attention_CVPR_2023_paper.pdf
- Human3.6M: Large Scale Datasets and Predictive Methods for 3D …, https://vision.imar.ro/human3.6m/pami-h36m.pdf
- arXiv:2306.09615v1 [cs.CV] 16 Jun 2023, https://arxiv.org/pdf/2306.09615
- Global and local feature communications with transformers for 3D …, https://pmc.ncbi.nlm.nih.gov/articles/PMC11850841/
- Three-Dimensional Human Pose Estimation with Spatial–Temporal …, https://www.mdpi.com/2076-3417/13/8/5093
- Comparison between the proposed method with a set of previous …, https://www.researchgate.net/figure/Comparison-between-the-proposed-method-with-a-set-of-previous-methods-in-terms-of_tbl1_370170486
- MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human …, https://liner.com/review/mixste-seq2seq-mixed-spatiotemporal-encoder-for-3d-human-pose-estimation
- Search | HyperAI, https://hyper.ai/search?q=Mohammed%20Hassanin
- Cross Spatio-Temporal Transformer for 3D Human Pose Estimation, https://arxiv.org/abs/2203.13387
- A cross-feature interaction network for 3D human pose estimation, https://ira.lib.polyu.edu.hk/bitstream/10397/111360/1/1-s2.0-S0167865525000157-main.pdf
- Comparison of Pose Estimation Models using Human3.6M dataset., https://plos.figshare.com/articles/dataset/Comparison_of_Pose_Estimation_Models_using_Human3_6M_dataset_/29854635
- A Survey of the State of the Art in Monocular 3D Human Pose … - MDPI, https://www.mdpi.com/1424-8220/25/8/2409